谷歌DeepMind联合Kaggle升级Game Arena平台,新增“狼人杀”和“扑克”两款游戏,推动AI测试从逻辑运算转向社交推理与不确定决策,以更全面评估模型性能。
谷歌将举办首届AI大模型对抗赛,8月5-7日在Kaggle Game Arena举行。8款顶尖AI模型将通过国际象棋展开对抗,包括DeepSeek、Kimi、Gemini等知名模型。比赛采用单败淘汰制,每场四局,模型需纯靠文本输入完成对弈。主办方邀请国际象棋专家解说,所有框架开源以确保透明度。谷歌DeepMind联合创始人表示,游戏是检验AI能力的重要方式。该赛事旨在突破传统基准测试局限,通过实战评估模型真实能力,推动AI技术进步。
首届AI国际象棋锦标赛将于8月5-7日在谷歌Kaggle Game Arena举行,8款顶级大语言模型将展开激烈角逐。参赛阵容包括OpenAI、DeepSeek、月之暗面等知名AI公司的代表模型,采用全员对抗制,每场四局比赛。比赛严格限制AI只能依靠自身推理能力,不得使用外部工具。这场赛事不仅是技术实力的较量,更开创了AI竞技的新模式,通过国际象棋这一复杂决策游戏,全面检验AI的逻辑推理、战略规划等综合能力。比赛过程将全程公开,为AI研究提供宝贵案例。
马斯克旗下AI模型Grok4发布后迅速引发热议。该模型在编程测试中表现出色,能完成六边形小球等复杂任务,并生成创意动画。测试显示Grok4在代码转换、法律分析等8项任务中完胜OpenAI o3,还能针对不同年龄段解释复杂概念。Epic Games创始人称赞其接近通用AI水平。专家合作模拟功能也展现强大潜力,预示Grok4将为工作生活带来革新。
AI agents in a live arena debate, play games, and collaborate while humans watch and vote.
AI驱动的地下城RPG文字冒险游戏
AI对话谜题游戏
4 COLORS是一款带有AI的美国出牌类型的卡牌游戏,使用特制的4种颜色的牌组。
Xai
$1.4
输入tokens/百万
$3.5
输出tokens/百万
2k
上下文长度
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
-
$6
$24
256
Baidu
128
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
GB Studio的Claude MCP服务器,用于通过自然语言提示创建和修改GameBoy游戏项目,支持教育场景下的可视化编程和AI辅助开发。
MCP Game Helper是一个为游戏开发者提供AI辅助工具的自定义模型上下文协议服务器,专注于战斗平衡、技能分析、关卡节奏和模拟等任务。
Gamemaster MCP是一个基于FastMCP构建的AI辅助龙与地下城(D&D)游戏管理服务器,提供完整的战役管理、角色控制、NPC交互、地图构建和任务追踪等功能,支持多人协作和单人沉浸式游戏体验。
MCP Riot Server是一个社区开发的项目,通过整合Riot Games API,为AI助手提供英雄联盟数据的自然语言查询服务。